查看原文
其他

物理教育研究中的量化研究方法

DING Lin 张萍 等 物理与工程 2021-03-24

物理教育研究对每一个物理教师来说既需要也重要,它可以帮助教师理解教育规律,更有效地进行教学活动,利于学生的发展,同时也利于教师的专业成长。


1 量化研究方法在物理教育研究中的意义


事实上,教师在日常的教学过程中都会或多或少地对自己的教学进行反思和总结,在遇到的问题时会对自己的教学行为进行调整,这就是教育研究的原始状态,是一种不自觉的行动研究,形成了很多零散的,碎片化的个人经验、印象、感想和观点。如果能对教学中遇到的问题和个人反思进行更深入的探索,用科学的实证研究方法对教学进行研究,就可以使研究结果在物理教育研究领域中进行比较和整合,形成共识,利于同行之间交流,并与国际标准接轨。

实证研究方法分为量化研究(Quantitative Research Methods)、质性研究(Qualitative Research Methods)(也称为定量研究和定性研究),及将两者相结合的混合研究方法(Mixed-Methods Approach)。由于PER的研究者主要是物理教师,而量化研究遵循传统的科学研究方法,包括提出假设、构建模型、创设实验、收集数据和验证假设,因此最容易被物理教育者接受,在学科教育研究领域中最早使用量化研究方法的多是PER研究者。在PER的历史上量化研究一直居于主导的地位,质性研究的发展较为缓慢。

PER量化研究主要是使用统计测量原理获得数字资料来研究物理教育的问题,通过收集、整理、描述各类物理教育现象中蕴含的数字信息,探明研究对象的属性特征,分析和判断影响物理教育现象变化因素,研究物理教育现象之间的关系,比较教育现象之间的差异,发现物理教育发展变化的特征及规律,解决物理教学中存在的问题,或者对研究结果的数据处理进行统计推断,由样本推断总体,从而做出正确的决策。


2 量化研究在PER和物理其他研究领域中的差异


尽管PER也是物理研究的一个分支,但是PER的量化研究方法和物理其他领域的量化研究方法有所不同。由于对物理教育研究感兴趣的多是有物理专业研究背景的教师,有必要先讨论一下量化研究在PER和物理其他领域的差异,说明无论是物理测量还是物理教育的测量,其正确性都不是绝对的,物理测量结果也会受到实验条件的影响,而物理教育研究对象是一个非常复杂的系统,发展的历史还很短,因此在物理教育量化研究中一味地追求绝对的测量是不现实的。

首先,传统物理中的测量涉及有形物体和无形物体(例如电磁场)及其物理属性,测量的主体是明确的,被测物理量有明确的定义,存在大家公认的与被测物理量相关的一组变量,对这些变量的测量和数据分析通常遵循一些成熟的规则,这些规则帮助物理学家建立起物理世界是如何运作的模型。但是, PER的量化研究是为了探索人们在学习物理过程中是如何思考和表现的,研究主体是教学活动中教师和学生的非物质特性(心理属性),它们是概念理解、推理能力、科学实践、信仰、态度和认知等等。这些心理属性往往不能直接观察和测量,需要通过教师或学生在完成某些任务上的表现来探测。另外,人的心理属性,往往难以明确界定,有些甚至缺乏公认的定义,易受条件的影响发生变化,制约它们的变化因素很多,因此相比物理学研究,PER量化研究面临更大的挑战。

PER量化研究的另一个独特之处在于它使用的测试工具。在传统的物理学量化研究中,绝大多数的测量工具已在全球范围内校准和标准化,使用不同仪器收集和计算的数字信息很少引起争议。即使用不同单位制(如SI和英制)的仪器进行测量,利用单位变换规则就可以轻松地对数据进行定量分析与比较[1]。在PER领域中,研究的内容通常是一个多层次、多元化的复杂系统,一般而言都涉及二阶建构:第一阶是人们理解物理世界的过程,第二阶是我们研究人员理解一阶建构的过程。而物理学所研究的内容直接与物质世界及其相互作用有关,处于一阶建构的层面。因此,尽管PER研究人员已经开发出一些测试工具,但是由于测试工具的开发通常基于设计团队的认知,加上PER的测量存在样本依赖性,所以在PER领域(包括任何教育和心理测量领域)几乎没有一套测试工具可以被全球接受,用来对某一个感兴趣的变量进行全球标准化测量。

此外,由于量化研究使用的数据类型不同,PER与物理学其他领域在数据分析方法上存在很大差异。定量数据有4种类型,简单介绍如下:

(1) 定类数据(nominal)是一种分类数据,它是离散的并且没有顺序关系。例如,在研究物理学习过程中男女生差异时,我们可能会使用的“1” 和“0”分别表示男性和女性,这里并不表示1比0更大。

(2) 定序数据(ordinal)是另一种分类数据,也是离散的但具有顺序。例如,研究高中阶段三个年级的学生对一些物理概念理解水平的发展变化时,分别用数字1,2,3表示高中一年级,二年级和三年级。定序数据用数字表示个体在某个有序状态中所处的位置,不能做数学计算。例如,PER的测试工具中的科罗拉多物理学习态度调查(Colorado learning attitude survey about sciences,简称C-LASS)和马里兰州物理期望调查(Maryland physics expectations survey,简称MPES)[2],它们是李克特量表(Likert-scale inventory),是由一组陈述组成,每一陈述都有:1(非常不同意),2(同意),3(中立),4(同意)到5(非常同意)五种回答,数值越大表明同意的程度越高,但5(非常同意)和4(同意)之间的差距与4(同意)和3(中立)之间的差距不一定相同。

(3) 定距数据(interval)是具有相等间隔的连续数据,并且有顺序。例如,温度,1℃、2℃之间的差与20℃和21℃之间的差是相同的。定距数据有单位,没有绝对零点,可以做加减运算,不能做乘除运算。

(4) 定比数据(ratio)不仅具有定距数据的全部属性,同时具有绝对原点(即0),且两个数值之间的比值是有意义的。例如:质量就是一个定比变量,我们可以说一个质子的质量为一个电子的1836倍。

上述4类数据是从低到高的次序排列,排在后面的数据类型除了包含前面数据类型的所有性质外还具有更多的性质,数据能参与的运算更多。

在传统的物理学中,量化研究的数据基本上是定距和定比数据(也有例外,如电子自旋是离散状态,不是定距数据)。这意味着我们可以用数据执行多种数学运算,其结果仍具有物理意义。与之不同的是,PER定量数据大多为定类和定序数据,只有极少的定距数据,且从无定比数据。例如PER常用的几个测试工具:力的概念测试(force concept inventory,简称FCI)[3],力与运动概念评测(force and motion conceptual evaluation,简称FMCE)[4],电磁学概念调查(conceptual survey of electricity and magnetism,简称CSEM)[5]中都没有出现过定距数据。因为,我们不能说在FCI测试中获得1分和2分的两名学生之间在力的概念理解上的差距与获得20分和21分的两名学生之间的差距相同[6,7]。然而,如果样本中的学生分数分布遵循正态分布,在统计上可以将学生分数的数据转换成间隔相等的标准分数,此时研究人员就可以把测试分数近似看作定距数据,计算均值和标准差,并进行参数统计分析。在一般情况下,对定序和定类数据(也被称为分类数据),通常以其频率呈现出一定特征,并可进行非参数统计分析(nonparametric statistical analysis);总之,在数据连续的情况下,当样本量足够大,通常可以满足正态假设。但是,当涉及分类数据或小规模连续数据时,正态假设很可能会不适用,在这种情况下,传统的参数统计分析不再有效。非参数统计并不基于正态分布假设,可以用于在传统参数统计不适用的多数情况。

鉴于定量数据的上述性质,可以想象,相比其他的物理研究领域,PER中的定量研究更难达到有效、可靠的水平,更难令人满意。然而,需要指出的是:无论对PER定量数据进行如何仔细的测量和分析,我们也只能用观察到的结果来推断我们真正感兴趣的部分,而那些不能被直接观察到的才是我们真正感兴趣的东西,这就是为什么PER量化研究在解决有效性和可靠性方面常常遇到很大困难的原因,也是物理学家在理解PER量化研究时常常产生质疑的原因。

PER量化研究在某些方面类似于物理学家所熟知的热力学中的微观态和宏观态,其中宏观态是大量微观态的统计平均结果,并且宏观态不需要对应任何特定的微观态。同样,PER的研究结果也不可能映射到某个学生身上。


3 PER量化研究的3种基本类型


简而言之,量化研究是通过一些统计技术进行定量观测,获得数字资料,对物理教育中的事件、想法或行动进行描述、解释和推论的研究方法。量化研究的优点在于它允许研究人员专注于所感兴趣的变量,测试与分析变量之间的各类关系,如变量之间的相关,甚至是因果关系。相比于质性研究,量化方法主要处理数值数据,因此在处理和传播信息的过程中,由于研究者个人主观因素而引起的偏差相对较少。在PER中常用的量化研究方法有:描述统计,推断统计、测试工具的开发和检验。对应于PER的3种主要研究类型:调查研究(survey research)、实验/准实验研究(experimental/quasi-experimental studies)、测量与评价研究(evaluation research)[8]。

描述统计主要用来描绘或概括获得数据的基本情况,显示其分布特征,研究不涉及因果,重点描述物理教育中的现象 “是什么”而非“可能是”。例如,研究人员想调查“在某几个大学的学生们完成FCI测试的平均表现如何?” 解决这个问题就可以利用描述统计,通过计算平均数和中位数来反映数据的集中趋势,通过计算标准差、差异系数等差异变量来反映数据的离散程度。一般而言,采用描述统计方法的研究报告比采用其他方法的研究论文更容易理解。

推断统计主要是根据样本数据信息,运用概率理论分析论证,在一定的可靠程度上推断出总体的有关特征。在PER中最典型的应用是实验/准实验研究,受试者个体(在实验设计中)或受试者群体(在准实验设计中)被随机取样并分配到对照组或实验组中,通过对比不同的群体表现,研究人员可以推断出实验干预后的有效性。使用该研究方法的一个实例是:与传统大学物理教学相比,使用同伴教学法后学生在C-LASS中的表现更接近物理专家[9]。

如果我们想测量学生学习物理过程中的某些心理属性,就要编制一种测验来引起与该种心理属性相应的行为反应,通过测量学生完成测验的行为反应,来估计和推测这种属性。PER中第三类量化研究是测试工具的开发和校准,用于评估研究,使其能匹配特定的评估计划,并提供具有有效性和可靠性的证据。经典测量理论(classical test theory, 简称CTT)是其他测量理论的基础,它的数学模型简单,涉及的基本概念有平均分、标准差、难度、区分度、信度、效度等,都易于理解和计算,但是这些测量常常依赖被试样本,因此很难获得一个客观的尺度对不同情境下的测量结果进行有意义的比较。除了CTT外,还有项目反应理论(item response theory,简称IRT),它建立在更复杂的数学模型之上。另外,在解决CTT测量结果依赖样本的局限性、实现测试的客观性上, Rasch模型提供了一个可行性很高的方案,使不同情境下的测量可以在相对一致的框架下进行比较和解读。

随着技术的进步,数据获取和数据分析变得越来越容易,大数据和大数据分析应用越来越广泛,也拓展了物理教育量化研究思路和空间。但是大数据分析不等同于教育领域的量化研究,两者在研究范式、数据获取和数据分析方法等方面是不同的。PER量化研究是基于问题,选取适合的样本收集数据,基于统计原理处理和分析数据,由样本推断总体。大数据分析是采用基于数据库原理和计算机技术的数据挖掘和分析技术,通常是先有数据,但是一般而言它的数据生成具有随机性,富含大量繁杂信息,从而稀释了有用信息,因此“大数据”尽管数据量大但价值密度却低。


4 结语


具备PER量化研究方法的知识可以使教育研究和教育实践都“基于证据”(evidence-based),这对物理教育工作者来说非常重要。一方面,在做物理教育研究时,使用量化研究方法可以提高研究的科学性,有多少证据说多少话。另一方面,了解PER量化研究的知识可以让教师读懂国内外物理教育研究成果的文献,判断其质量,决定是否将其运用于教学中改进教学,做到在教学改革过程中既开放思想又不随波逐流。为此,我们试图以实践合理性的视角介绍PER量化研究,打开窗口、留出接口,使教师初步了解PER量化研究方法,在需要的时候可以继续学习达到精通。本文作为一个开篇,后面几篇将分别按照PER量化研究的3种主要类型(调查研究、实验/准实验研究、测量与评价研究)具体介绍其研究方法。


参考文献


[1]DING L, LIU X. Getting started with quantitative methods in physics education research. HENDERSON C, HARPER K. Eds. Getting Started in PER—Reviews in PER[R].  College Park, MD American Association of Physics Teachers, 2012, 2:1-33.

[2]ADAMS W K, PERKINS K K, PODOLEFSKY N S, et al. New instrument for measuring student beliefs about physics and learning physics: the colorado learning attitudes about science survey[J]. Physical Review Special Topics—Physics Education Research, 2006, 2(1).

[3]HESTENES D, WELLS M, SWACKHAMER G. Force concept inventory[J]. The Physics Teacher, 1992. 30(3): 141-158.

[4]THORNTON R K, SOKOLOFF D R. Assessing student learning of Newton’s laws: The force and motion conceptual evaluation and the evaluation of active learning laboratory and lecture curricula[J]. American Journal of Physics, 1998, 66(4): 338-352.

[5]MALONEY D P, O’KUMA T L, HIEGGELKE C J, et al. Surveying students’ conceptual knowledge of electricity and magnetism[J]. American Journal of Physics, 2001,  69(S1): S12-S23.

[6]BOONE W J, TOWNSEND J S AND STAVER J. Using Rasch theory to guide the practice of survey development and survey data analysis in science education and to inform science reform efforts: an exemplar utilizing stebi self-efficacy data[J]. Science Education, 2011, 95(2): 258-280.

[7]BOONE W J, SCANTLEBURY K. The role of Rasch analysis when conducting science education research utilizing multiple-choice tests[J]. Science Education, 2005, 90(2): 253-269.

[8]DING L,张萍.美国物理教育研究:历史回顾和前瞻[J].物理与工程,2018,28(1):29-34. (in Chinese)

DING L, ZHANG P. Foundations and frontiers of physics education research in the U.S[J]. Physics and Engineering, 2018, 28(1):29-34.

[9]ZHANG P, DING L and MAZUR E. Peer Instruction in introductory physics: A method to bring about positive changes in students’ attitudes and beliefs[J]. Physical Review Physics Education Research, 2017, 13.010104.


引文格式:  DING Lin,张萍,贾泽皓. 物理教育研究中的量化研究方法[J]. 物理与工程,2019,29(2):优先出版.


END


更多精彩文章请点击下面“蓝字”标题查看:


《物理与工程》期刊是专注于物理教育教学研究的学术期刊,是中国科技核心期刊,1981年创刊,欢迎踊跃投稿,期刊投审稿采编平台:

http://gkwl.cbpt.cnki.net


欢迎关注

《物理与工程》微信公众号


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存